﻿from pathlib import Path

# 注释的内容都是加大这些参数的情况下的变化

单键最多url = 11000  # 增加多关键词查找能力，增加硬盘消耗，略微降低爬取效率
单键最多相同域名url = 20  # 增加有效结果的相关性，减少有效结果数量
大清洗行数 = 10000000  # 增加平均爬取效率，增加峰值内存
单键最多新增url = 10000  # 减少键的url的增长速度
新增键需url数 = 3  # 减少键的增长速度


爬虫的名字 = 'loli_spider'
爬虫冷却时间 = 3
爬取线程数 = 22 # 增加爬取效率，增加网络和CPU消耗
爬取集中度 = 0.7 # 增加爬取目标集中在单个域名下的概率 (超过1的值没有效果)
单网页最多关键词 = 250
最大epoch = 100 # 增加爬取的均匀度，增加爬取出现异常的概率
预期繁荣网站比例 = 0.6 # 增加每个epoch中带有高反向链接权重的域名的数量
入口 = 'https://zh.wikipedia.org/'

使用在线摘要 = True     # 增加搜索结果信息的可读性，增加搜索时间
在线摘要限时 = 3        # 减少信息不完整的搜索结果数量，增加搜索时间
权重每日衰减 = 0.996    # 增加已经过期的网站的权重
语种权重 = 0.5         # 增加中文网站的权重，减少我看不懂的语种的网站的权重
连续关键词权重 = 1.3    # 增加连续的关键词的权重，例如搜索「萝莉美少女」时，「萝莉美少女」会有加成，但是「萝莉和美少女」没有
反向链接权重 = 1        # 增加反向链接更多的网站的权重
减权关键词 = []
减权关键词权重 = 0.1    # 减少含有减权关键词的域名的权重
人服务器端口 = 80

反向链接基准值 = 200000  # 增加反向链接更多的网站的权重。也影响存储，修改时可能会丢失数据。

存储位置 = Path('./savedata')
